thinkingmachines科幻影视

让AI学习效率飙升50倍的秘密：在线策略蒸馏

于是你换了种方法。让他自己写，然后你在旁边指出每一个句子的优劣、逻辑是否通顺、语气是否合适。

学习策略 th thinkingmachines rlhf 2025-10-29 12:12 8

只要强化学习1/10成本！翁荔Thinking Machines盯上了Qwen的黑科技

用1/10成本就能「吊打」强化学习，Thinking Machines最新一篇文章开源的这个策略，不看真OUT了！可在Tinker直接复现。

thinking qwen thinkingmachines 2025-10-28 12:10 7

只要强化学习1/10成本！翁荔的Thinking Machines盯上了Qwen的黑科技

用1/10成本就能「吊打」强化学习，Thinking Machines最新一篇文章开源的这个策略，不看真OUT了！可在Tinker直接复现。

thinking qwen thinkingmachines 2025-10-28 12:18 7

刚刚，Thinking Machines Lab博客提出在策略蒸馏，Qwen被cue 38次

在策略蒸馏（on-policy distillation）是一种将强化学习 (RL) 的纠错相关性与 SFT 的奖励密度相结合的训练方法。在将其用于数学推理和内部聊天助手时，TML 发现在策略蒸馏可以极低的成本超越其他方法。

博客 qwen thinkingmachines think 2025-10-28 08:41 9

Thinking Machines 发布又一神作「在线策略蒸馏」，LLM后训练效率飙升50-100倍

简单来说在线策略蒸馏巧妙地结合了两种主流后训练范式的优点：它既有强化学习等在线策略方法的相关性和可靠性，能够让模型从自身的错误中学习；又具备监督微调 (SFT) 等离线策略 (Off-policy) 方法的数据效率，通过密集的监督信号加速学习过程

llm thinking thinkingmachines 2025-10-28 06:19 6

Anthropic、Thinking Machines Lab曝光:30万次压力测试揭AI缺陷

现如今，LLM 正越来越多地受到模型规范的约束，这些规范为模型的行为准则与伦理边界提供了清晰定义。它们构成了 Constitutional AI（宪法式 AI）与 Deliberate Alignment（审慎对齐）的核心基础。在这些框架中，研究者通过 R

a thinkingmachines machineslab 2025-10-27 16:17 8

Anthropic、Thinking Machines Lab曝光：30万次压力测试揭示AI缺陷

现如今，LLM 正越来越多地受到模型规范的约束，这些规范为模型的行为准则与伦理边界提供了清晰定义。它们构成了 Constitutional AI（宪法式 AI）与 Deliberate Alignment（审慎对齐）的核心基础。在这些框架中，研究者通过 R

a thinkingmachines machineslab 2025-10-27 15:51 8

Anthropic、Thinking Machines Lab论文曝光：30万次压力测试揭示AI规范缺陷

现如今，LLM 正越来越多地受到模型规范的约束，这些规范为模型的行为准则与伦理边界提供了清晰定义。它们构成了 Constitutional AI（宪法式 AI）与 Deliberate Alignment（审慎对齐）的核心基础。在这些框架中，研究者通过 R

a thinkingmachines machineslab 2025-10-25 12:24 6

Thinking Machines Lab 联合创始人加盟 Meta

人工智能初创公司 Thinking Machines Lab 的一位联合创始人Andrew Tulloch跳槽至 Meta。

meta thinkingmachines machines 2025-10-12 15:34 7

拒绝小扎15亿美元offer的大佬，还是加入Meta了

OpenAI前CTO Mira Murati创业公司Thinking Machines Lab证实，联创、首席架构师Andrew Tulloch已经离职去了Meta。

meta offer ma thinkingmachines 2025-10-12 10:18 9

ThinkingMachines力推LoRA：成本低效果近FullFT，实验揭秘关键

2025年9月30号下午6点多，机器之心Pro发了条消息，说ThinkingMachines又更新博客了。

lora thinkingmachines 实 fullft 2025-10-02 13:34 11

开发者狂喜：Thinking Machines发布首款产品Tinker，后训练麻烦全给包了

简单来说，Tinker 是一个 API，用于帮开发者 / 研究人员微调语言模型。重要的是，在此过程中，你只需要专注于训练数据和算法，而你不擅长的关于 Infra 的部分 —— 调度、调优、资源管理和 Infra 可靠性 —— 统统由 Tinker 来搞定，这将

tinker thinkingmachines thinki 2025-10-02 11:10 10

Thinking Machines曝LoRA终极指南：10倍学习率，媲美全参微调

LoRA能否与全参微调性能相当？在Thinking Machines的最新论文中，他们研究了LoRA与FullFT达到相近表现的条件。Thinking Machines关注LoRA，旨在推动其更广泛地应用于各种按需定制的场景，同时也有助于我们更深入审视机器学习

l thinking thinkingmachines 全参 2025-09-30 20:52 9

Thinking Machines又发高质量博客：力推LoRA，不输全量微调

LoRA 在绝大多数后训练场景下，能以远低于全量微调的成本，获得几乎同等的效果。Thinking Machines 将这一现象形容为 LoRA 的低遗憾区间（low-regret region）——即便不用全量微调，选择 LoRA 也不会让人后悔。

博客 thinkingmachines 全量微调 think 2025-09-30 18:46 6

三个人、一篇论文，估值850亿

AI领域从不缺乏颠覆性事件，却极少有一家公司能像Thinking Machines Lab 这样，在成立仅七个月、尚未推出正式产品、甚至没有实际用户的情况下，就以120亿美元（折合人民币850亿元）的估值惊艳全球行业。

论文 mac llm 估值 thinkingmachines 2025-09-17 13:57 10

Thinking Machines Lab突破AI技术瓶颈，大语言模型输出稳定性获里程碑式提升

由前OpenAI技术负责人Mira Murati创立的Thinking Machines Lab宣布，在人工智能领域取得关键技术突破，成功解决了大语言模型（LLM）推理过程中长期存在的输出不可预测问题。该实验室发布的最新研究《在LLM推理中战胜不确定性》显示，

t thinkingmachines machineslab 2025-09-11 17:59 10

Thinking Machines Lab 攻克AI随机性难题，大语言模型首次实现100%一致输出

前OpenAI首席技术官Mira Murati创办的Thinking Machines Lab近日发布重要技术突破，成功解决了困扰AI行业多年的模型输出不确定性问题。该实验室在最新发布的研究报告中宣布，他们已经实现了大语言模型推理过程的完全确定性输出。这项名为

t thinkingmachines machineslab 2025-09-11 14:11 11

刚刚，Thinking Machines Lab首次发长文，揭开LLM推理不确定性真相

就在今天，由 OpenAI 前 CTO Mira Murati 成立于今年 2 月的人工智能初创公司 Thinking Machines Lab，发了第一篇文章 ——《克服 LLM 推理中的不确定性》（Defeating Nondeterminism in L

推理 llm thinkingmachines llm推理 2025-09-11 11:53 11